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Словообразовательная база знаний 
экспертной обучающей системы 


Для экспертной обучающей системы предложена логическая структура словообразовательной базы знаний и 
формальная модель узлов дерева, включающая описание методов словообразования с использованием 
функций выбора. 


Введение 


Проблема обработки естественноязыковой информации остается актуальной на 
протяжении последних десятилетий. Системы информационного поиска, диалоговые 
системы, средства машинного перевода и автоматического реферирования, модули про- 
верки правописания используют анализ текстов, написанных на естественном языке. 

Использование словообразовательного компонента в информационно-поисковых 
системах предоставляет возможности для расширения полноты запроса, необходимость 
которого вызвана малым количеством обнаруженных ресурсов. Наличие модуля сло- 
вообразования в системах обработки текстов приспосабливает их к работе с неопо- 
знанными словами, которые образованы путем сложения основ, конверсией частей 
речи, с помощью аффиксов и т.д. 

Словообразовательные процессы — это основной путь пополнения лексики 
языка, в связи с этим модуль словообразования является неотъемлемой частью сов- 
ременных интеллектуальных информационно-поисковых и обучающих систем с ес- 
тественноязыковым интерфейсом. 

Актуальность разработки системы обучения словообразованию обусловлена тем, 
что знание словообразовательной системы способствует формированию и развитию 
у изучающих русский язык навыков грамотной речи: правильного употребления 
производных слов в структуре синтаксических единиц, соблюдения норм согласова- 
ния и управления, умения пользоваться синонимическими разноуровневыми языковыми 
средствами и т.д. [1]. 


Постановка задачи 


Обучение включает в себя больше, чем просто представление информации; 
необходима проверка действий обучаемого с динамичной обратной связью в про- 
цессе обучения для избежания ошибочных выводов, а также отложенная обратная 
связь для периодической оценки знаний обучаемого. Парадигма экспертной системы 
позволяет очень четко разделить знания и их обработку, увеличивая возможность 
многократного проведения такого процесса [2]. 

Одним из основных компонентов экспертной системы является база знаний (БЗ), 
предназначенная для хранения долгосрочных данных, описывающих словообразова- 
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тельную область (словари флективных классов, корней, аффиксов и окончаний) [3], 
а также правил словообразовательного синтеза и чередований. 

Разработка БЗ на основе устроенного по семантическому принципу словообра- 
зовательного словаря Тихонова позволит применять при словообразовательном ана- 
лизе и синтезе основные принципы объектно-ориентированного программирования, в 
первую очередь — наследование. Мотивационные и семантические отношения в сло- 
вообразовании можно трактовать и использовать как связи множественного насле- 
дования признаков. Множественного наследования потому, что мотивированное слово 
наследует признаки как минимум от двух источников: от слова основы и от словооб- 
разующего форманта. 

Целью статьи является разработка логической структуры БЗ для экспертной обу- 
чающей системы словообразованию русского языка. 


Словообразовательная база знаний 
экспертной обучающей системы 


Словообразовательная БЗ представляет собой лес, в качестве деревьев которого 
выступают словообразовательные гнезда словаря Тихонова. 

Дерево — одна из наиболее распространенных структур, используемых для 
представления данных в ЭВМ. Подобные структуры широко применяются при орга- 
низации банков данных, систем управления базами данных, в системах программного 
имитационного моделирования сложных комплексов и т.д. Особое значение сетевые 
структуры приобрели в системах искусственного интеллекта, в которых они адек- 
ватно отражают логику организации данных и сложные отношения, возникающие в 
таких системах между различными элементами данных. В этих системах деревья 
применяются для представления логических конструкций, необходимых для пред- 
ставления знаний, образования понятий и осуществления логических выводов. 

Формально дерево ({гее) представляет собой конечное множество Т одного или 
более узлов со следующими свойствами: 

— существует один выделенный узел, а именно корень (гой) данного дерева Т; 

— остальные узлы распределены среди п1>=0 непересекающихся множеств Т1,.../Тит, 
и каждое из этих множеств в свою очередь является деревом, деревья Т1,...Тт 
называются поддеревьями (зи М теез) данного корня. 

Выбор представления дерева зависит от решаемой задачи и способа ее решения. 

Узлом дерева назовем структуру 


А, =<0(К),2.,5.(х,)>, (1) 


где ((К) — объединение элементов множества формантов А, представляющее собой 
производящую основу; 

2. — часть речи слова, образующегося в узле А р 

5(х,) — функция, задающая способ словообразования, с помощью которого об- 
разуется узел А та х„ — формант. 

Корнями деревьев являются первые и обязательные ступени словообразования, 
которые являются непроизводными. 

На каждой ступени словообразования может быть образовано большое число 
производных слов. Порядок размещения узлов (производных слов) дерева на каждом 
ярусе учитывает их семантическую близость к родительскому узлу (производящему 
слову), а также лексико-грамматические и словообразовательные отношения. Например, 
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для имени существительного со значением лица наиболее семантически близкими 
являются уменьшительно-ласкательные и увеличительные существительные; за ни- 
ми идут названия лиц женского пола, детей (при названии животных — самок и 
детенышей). 

Самые близкие производные слова в лексико-грамматическом отношении для 
качественных прилагательных — это формы оценки. Для глаголов — это возвратные 
глаголы и существительные со значением процесса. 

Наиболее широким является первый ярус дерева. Принцип размещения узлов 
(производных слов) следующий: 

1) если родительский узел — имя существительное, то дочерние узлы размещены 
в таком порядке: 

а) формы оценки исходного существительного; 

6) остальные имена существительные; 

в) имена прилагательные; 

г) наречия; 

д) префиксальные и префиксально-суффиксальные имена существительные 
и имена прилагательные (в алфавитном порядке); 

е) глаголы. 

В каждом из этих разрядов может быть один, несколько или множество узлов. 
Однако редки случаи, когда в ярусе встречаются все перечисленные разряды. 

2) если родительский узел — имя прилагательное: 

а) субстантивные прилагательные; 
6) формы оценки исходного прилагательного; 
в) бесприставочные имена прилагательные; 
г) наречия; 
д) имена существительные; 
е) префиксальные прилагательные и наречия; 
ж) глаголы. 
3) если родительский узел — имя числительное: 
а) собирательные числительные; 
6) существительные; 
в) количественные существительные; 
г) наречия; 
д) прилагательные. 
4) если родительский узел — глагол: 
а) возвратный глагол; 
6) суффиксальная форма несовершенного вида; 
в) однократный глагол; 
г) многократный глагол; 
д) отглагольные существительные; 
е) причастия; 
ж) прилагательные; 
3) наречия; 
и) префиксальные и префиксально-суффиксальные глаголы. 

Местоимения и наречия как производящие основы выступают редко, поэтому 
необходимость разработки принципа размещения производных не возникает. 

Для учета описанного порядка размещения узлов в структуру, описывающую 
элемент узла дерева, вводится дополнительный элемент К, представляющий собой 
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бинарный массив, длина которого равна максимальному числу категорий перечис- 
ленных выше частей речи. Наибольшим числом категорий, равным девяти, обладает 
глагол 

К = [А ‚К, ‚...Ко |. (2) 

Если у текущего родительского узла существуют потомки, обладающие 1-м 
свойством, то А, = 1, если же таких потомков нет или число свойств меньше 1, то А;= 0. 
То есть, например, 

— для существительного УА,(1> 6 > К, =0); 
— для прилагательного УХ, (1> 7 —> К, =0). 
Таким образом, структура (1) будет иметь вид 
А; =< 0 (®);2,,5 (К >, (3) 

Причем, под именами элементов массива будет подразумеваться название кате- 
гории, свойственной части речи 2.. То есть, если узел — имя существительное, то 
выражение А, = 1 будет означать наличие потомков, обозначающих формы оценки 
исходного существительного, однако если в качестве родительского узла выступает 
глагол, то выражение А, = 1 будет означать наличие потомков, являющихся возврат- 
ными глаголами. 

Рассмотрим первую ступень словообразования прилагательного бедный: 
бедн(ый) 

бедн-ейш-ий 

бедн-оват-ый 

бедн-еньк-ий 

бедн-о 

бедн-ость 

бедн-от-а 

бедн-як 

без-бедн-ый 

пре-бедн-ый 

бедн-е-ть 

при-бедн-ить-ся 

Для данного примера элементы массива категорий будут иметь такие значения: 
К={О, 1, 1,1,1,1,1,0,0}. Первые семь элементов обозначают наличие или отсутствие по- 
томков, обладающих характеристиками, свойственными производным прилагательного. 
Последние два элемента равны нулю, так как категорий производных прилагательного 
существует только семь. 

Аффиксы, хранящиеся в словарях, структура которых приведена в [3], будем 
трактовать как факты БЗ. А функции 5а(х»), задающие законы словообразования, — 
как правила БЗ. 

Однако, следует отметить, что поведение одного и того же аффикса в разных 
ситуациях различно, то есть одному и тому же аффиксу могут соответствовать раз- 
ные правила. 

Например, рассмотрим суффикс -щик при образовании имен существительных. 

Случай 1: мотивирующее слово (родительский узел) — глагол. В данной ситуа- 
ции суффикс -щик вызывает следующие чередования на морфемном шве: к-ч,г-— ж, 
л — ль (размолоть — размольщик). К тому же конечная гласная производящей основы 
и финаль -ива не сохраняются (протирать — протирщик). 

Случай 2: мотивирующее слово — имя прилагательное. В этом случае суффикс 
-щик не дает чередований вообще. Но финали -н- (после согласной) и -ск- основы 
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мотивирующего слова отсутствуют в образованном существительном (инструмен- 
тальный — инструментальщик). 

Случай 3: мотивирующее слово — имя существительное. В данной ситуации пе- 
ред морфом -щик чередуются л —ль (факел — факельщик), ск — 14 (сыск — сыщик), ст — 
и; (поместье — помещик). Финаль -к- /-ок мотивирующего слова в производном слове 
отсутствует (шарманка — шарманщик). 

Таким образом, способ словообразования можно представить следующим вы- 
ражением: 


9. = {5, е5]у}, (4) 


где 5; — способ словообразования объекта, выбираемый из множества 5 альтернатив- 
ных способов, выбираемых по некоторому условию у. 
Условие у представляет собой следующий кортеж: 
у=<л,ф>, (5) 
где л — совокупность сведений об объекте, а ф — множество правил (словообразова- 
ния и чередования). 

Сведения об объекте представляют собой множество информационных харак- 
теристик, таких, как код аффикса (х), часть речи родительского узла и текущего (с), 
финаль основы производящего слова (/) 

плыть. (6) 

Части речи родительского и текущего узлов предлагается представить в виде 
кодов, первый разряд которых соответствуют коду части речи родительского узла, а 
второй — текущего. 


Заключение 


Таким образом, в настоящей работе предложена логическая структура словооб- 
разовательной базы знаний и формальная модель узлов дерева, включающая описания 
методов словообразования с использованием функций выбора. 

В дальнейшем планируется разработка эвристического алгоритма нахождения 
пути к узлу дерева, обладающему требуемой семантикой. Полученные результаты 
применяются при разработке экспертной обучающей системы словообразованию 
русского языка. 
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Словотворча база знань експертно! навчально! системи 

Для експертно! навчально! системи запропонована логчна структура словотворчо бази знань 1 формальна 
модель вузлйв дерева, що включае опис методв словотвору з використанням функшй вибору. 


5. Гогопоу, А. Уевозйта 

Уога Еогтайоп Кпожедее Вазе Гог Ехреги$е Геагито Зузет 

А 1орлса| збгасвге оЁ ууога Ююгтайоп Кпо\Ледее Базе ап4 ога! то4е| оЁ ее подез, увлеЬ шса4ез а 
езсирйоп оР фе те@#о4$ изте Ше ууога сБо1се \уаз оЁеге4 ог ехрегазе |еагитх зузет. 
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